Tecnologia Científica

Pesquisadores do MIT avançam na interpretabilidade automatizada em modelos de IA
MAIA é um agente multimodal que pode projetar experimentos iterativamente para entender melhor vários componentes de sistemas de IA.
Por Rachel Gordon - 30/07/2024


A abordagem automatizada e multimodal desenvolvida por pesquisadores do MIT interpreta modelos de visão artificial que avaliam as propriedades das imagens. Créditos: Imagem: iStock


À medida que os modelos de inteligência artificial se tornam cada vez mais predominantes e são integrados a diversos setores como saúde, finanças, educação, transporte e entretenimento, entender como eles funcionam por baixo dos panos é essencial. Interpretar os mecanismos subjacentes aos modelos de IA nos permite auditá-los quanto à segurança e vieses, com o potencial de aprofundar nossa compreensão da ciência por trás da inteligência em si.

Imagine se pudéssemos investigar diretamente o cérebro humano manipulando cada um de seus neurônios individuais para examinar seus papéis na percepção de um objeto em particular. Embora tal experimento fosse proibitivamente invasivo no cérebro humano, é mais viável em outro tipo de rede neural: uma que seja artificial. No entanto, um pouco semelhante ao cérebro humano, modelos artificiais contendo milhões de neurônios são muito grandes e complexos para estudar manualmente, tornando a interpretabilidade em escala uma tarefa muito desafiadora. 

Para abordar isso, pesquisadores do MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) decidiram adotar uma abordagem automatizada para interpretar modelos de visão artificial que avaliam diferentes propriedades de imagens. Eles desenvolveram o “MAIA” (Multimodal Automated Interpretability Agent), um sistema que automatiza uma variedade de tarefas de interpretabilidade de rede neural usando um backbone de modelo de visão-linguagem equipado com ferramentas para experimentos em outros sistemas de IA.

“Nosso objetivo é criar um pesquisador de IA que possa conduzir experimentos de interpretabilidade de forma autônoma. Os métodos de interpretabilidade automatizados existentes apenas rotulam ou visualizam dados em um processo único. Por outro lado, o MAIA pode gerar hipóteses, projetar experimentos para testá-los e refinar sua compreensão por meio de análise iterativa”, diz Tamar Rott Shaham, pós-doutorado em engenharia elétrica e ciência da computação (EECS) do MIT no CSAIL e coautor de um novo artigo sobre a pesquisa. “Ao combinar um modelo de visão-linguagem pré-treinado com uma biblioteca de ferramentas de interpretabilidade, nosso método multimodal pode responder às consultas do usuário compondo e executando experimentos direcionados em modelos específicos, refinando continuamente sua abordagem até que possa fornecer uma resposta abrangente.”

O agente automatizado é demonstrado para lidar com três tarefas principais: ele rotula componentes individuais dentro de modelos de visão e descreve os conceitos visuais que os ativam, ele limpa classificadores de imagem removendo recursos irrelevantes para torná-los mais robustos a novas situações e ele caça vieses ocultos em sistemas de IA para ajudar a descobrir potenciais problemas de imparcialidade em suas saídas. "Mas uma vantagem fundamental de um sistema como o MAIA é sua flexibilidade", diz Sarah Schwettmann PhD '21, uma cientista pesquisadora no CSAIL e colíder da pesquisa. "Demonstramos a utilidade do MAIA em algumas tarefas específicas, mas dado que o sistema é construído a partir de um modelo de base com amplas capacidades de raciocínio, ele pode responder a muitos tipos diferentes de consultas de interpretabilidade de usuários e projetar experimentos em tempo real para investigá-los." 

Neurônio por neurônio

Em uma tarefa de exemplo, um usuário humano pede ao MAIA para descrever os conceitos que um neurônio específico dentro de um modelo de visão é responsável por detectar. Para investigar essa questão, o MAIA primeiro usa uma ferramenta que recupera “exemplares de conjuntos de dados” do conjunto de dados ImageNet, que ativam o neurônio ao máximo. Para esse neurônio de exemplo, essas imagens mostram pessoas em trajes formais e close-ups de seus queixos e pescoços. O MAIA faz várias hipóteses sobre o que impulsiona a atividade do neurônio: expressões faciais, queixos ou gravatas. O MAIA então usa suas ferramentas para projetar experimentos para testar cada hipótese individualmente, gerando e editando imagens sintéticas — em um experimento, adicionar uma gravata borboleta a uma imagem de um rosto humano aumenta a resposta do neurônio. “Essa abordagem nos permite determinar a causa específica da atividade do neurônio, muito parecido com um experimento científico real”, diz Rott Shaham.

As explicações do MAIA sobre comportamentos de neurônios são avaliadas de duas maneiras principais. Primeiro, sistemas sintéticos com comportamentos de verdade fundamental conhecidos são usados para avaliar a precisão das interpretações do MAIA. Segundo, para neurônios “reais” dentro de sistemas de IA treinados sem descrições de verdade fundamental, os autores projetam um novo protocolo de avaliação automatizado que mede o quão bem as descrições do MAIA preveem o comportamento de neurônios em dados não vistos.

O método liderado pelo CSAIL superou os métodos de linha de base que descrevem neurônios individuais em uma variedade de modelos de visão, como ResNet, CLIP e o transformador de visão DINO. O MAIA também teve um bom desempenho no novo conjunto de dados de neurônios sintéticos com descrições de verdade fundamental conhecidas. Para os sistemas reais e sintéticos, as descrições estavam frequentemente no mesmo nível das descrições escritas por especialistas humanos.

Como as descrições dos componentes do sistema de IA, como neurônios individuais, são úteis? “Entender e localizar comportamentos dentro de grandes sistemas de IA é uma parte fundamental da auditoria desses sistemas para segurança antes de serem implantados — em alguns de nossos experimentos, mostramos como o MAIA pode ser usado para encontrar neurônios com comportamentos indesejados e remover esses comportamentos de um modelo”, diz Schwettmann. “Estamos construindo em direção a um ecossistema de IA mais resiliente, onde as ferramentas para entender e monitorar sistemas de IA acompanham o ritmo do dimensionamento do sistema, permitindo-nos investigar e, esperançosamente, entender desafios imprevistos introduzidos por novos modelos.”

Espiando dentro das redes neurais

O campo nascente da interpretabilidade está amadurecendo em uma área de pesquisa distinta junto com o surgimento de modelos de aprendizado de máquina de “caixa preta”. Como os pesquisadores podem decifrar esses modelos e entender como eles funcionam?

Os métodos atuais para espiar por dentro tendem a ser limitados em escala ou na precisão das explicações que podem produzir. Além disso, os métodos existentes tendem a se ajustar a um modelo específico e a uma tarefa específica. Isso fez com que os pesquisadores perguntassem: Como podemos construir um sistema genérico para ajudar os usuários a responder perguntas de interpretabilidade sobre modelos de IA, combinando a flexibilidade da experimentação humana com a escalabilidade de técnicas automatizadas?

Uma área crítica que eles queriam que esse sistema abordasse era o viés. Para determinar se os classificadores de imagem exibiam viés contra subcategorias específicas de imagens, a equipe analisou a camada final do fluxo de classificação (em um sistema projetado para classificar ou rotular itens, muito parecido com uma máquina que identifica se uma foto é de um cachorro, gato ou pássaro) e as pontuações de probabilidade das imagens de entrada (níveis de confiança que a máquina atribui a seus palpites). Para entender os vieses potenciais na classificação de imagens, a MAIA foi solicitada a encontrar um subconjunto de imagens em classes específicas (por exemplo, "labrador retriever") que provavelmente seriam rotuladas incorretamente pelo sistema. Neste exemplo, a MAIA descobriu que as imagens de labradores pretos provavelmente seriam classificadas incorretamente, sugerindo um viés no modelo em direção aos retrievers de pelo amarelo.

Como o MAIA depende de ferramentas externas para projetar experimentos, seu desempenho é limitado pela qualidade dessas ferramentas. Mas, à medida que a qualidade de ferramentas como modelos de síntese de imagem melhora, o MAIA também melhora. O MAIA também mostra viés de confirmação às vezes, onde às vezes confirma incorretamente sua hipótese inicial. Para mitigar isso, os pesquisadores construíram uma ferramenta de imagem para texto, que usa uma instância diferente do modelo de linguagem para resumir os resultados experimentais. Outro modo de falha é o overfitting para um experimento específico, onde o modelo às vezes tira conclusões prematuras com base em evidências mínimas.

“Acredito que um próximo passo natural para nosso laboratório é ir além dos sistemas artificiais e aplicar experimentos semelhantes à percepção humana”, diz Rott Shaham. “Testar isso tradicionalmente exigia projetar e testar estímulos manualmente, o que é trabalhoso. Com nosso agente, podemos ampliar esse processo, projetando e testando vários estímulos simultaneamente. Isso também pode nos permitir comparar a percepção visual humana com sistemas artificiais.”

“Entender redes neurais é difícil para humanos porque eles têm centenas de milhares de neurônios, cada um com padrões de comportamento complexos. O MAIA ajuda a fazer a ponte entre isso desenvolvendo agentes de IA que podem analisar automaticamente esses neurônios e relatar descobertas destiladas de volta para humanos de uma forma digerível”, diz Jacob Steinhardt, professor assistente na Universidade da Califórnia em Berkeley, que não estava envolvido na pesquisa. “Aumentar a escala desses métodos pode ser uma das rotas mais importantes para entender e supervisionar com segurança os sistemas de IA.”

Rott Shaham e Schwettmann são acompanhados por cinco colegas afiliados do CSAIL no artigo: o aluno de graduação Franklin Wang; a nova aluna do MIT, Achyuta Rajaram; o aluno de doutorado da EECS, Evan Hernandez SM '22; e os professores da EECS, Jacob Andreas e Antonio Torralba. O trabalho deles foi apoiado, em parte, pelo MIT-IBM Watson AI Lab, Open Philanthropy, Hyundai Motor Co., Army Research Laboratory, Intel, National Science Foundation, Zuckerman STEM Leadership Program e Viterbi Fellowship. As descobertas dos pesquisadores serão apresentadas na International Conference on Machine Learning esta semana.

 

.
.

Leia mais a seguir